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Such- und Mavigationseinrichtung fur Hypertext - Dokument e 



Technisches Gebiet 

Die Erfindung betrifft die Navigation und Suche in durch 
Verweise verketteten Dokumente, die uberwiegend als Hy- 
pertext-Dokumente bezeichnet werden. 

Stand der Technik 

Mit Verweisen verkettete Dokumente werden ublicherweise als 
Hypertext -Dokumente bezeichnet. Dabei sind die im Internet 
verwendeten, in der "Hypertext Markup Langauage" (HTML) be- 
schriebenen Dokumente weit verbreitet und allgemein be- 
kannt. Ein weiteres Beispiel fiir Hypertext-Dokumente sind 
die in den von der Firma Microsoft vertriebene graphischen 
Benutzeroberf lache "WINDOWS " enthaltenen Hilf edateien . Im 
folgenden sollen HTML-Seiten als stellvertretend fur alle 
Hypertext-Dokumente angesehen werden. 

Wenngleich die Navigation iiber die Hyperlinks eines Hy- 
pertext-Dokuments die Suche nach Information wesentlich ge- 
genuber einem traditionellen Dokument mit hierarchischer 
Kapitelstruktur wesentlich verbessert hat, so sind doch 
weitere Hilfsmittel zur Suche und Navigation notwendig. Da- 
zu gehort sicherlich ein Index, der von Suchwortern zu den 
entsprechenden Seiten verweist. 

Als weiteres Hilfsmittel sind " Suchmaschinen" bekannt . Die- 
se werden mit einem oder mehreren Stichwortern aufgerufen, 
die auf einen im vorarb erstellten, kontinuierlich aktuali- 
sierten, meist sehr umf angereichen, nicht direkt sichtbaren 
Index angewendet werden und Verweise auf eine Anzahl von 



Dokumenten, in denen diese Stichworte erwahnt sind, anzei- 
gen. Dabei werden bei der Erstellung dieser Indizes bei 
HTML -Dokumen ten entweder nur die uber das META-Tag angebba- 
ren Schliisselworter verwendet, oder es werden zusatzlich 
die Text-Inhalte weiterer Tags, insbesonder des "TITLE " - 
Tags, oder zusatzlich der gesamte Textinhalt verwendet. 
Dies ist primar eine Frage des zu indizierenden Datenbe- 
standes in Relation zu den verfugbaren Betriebsmitteln . 

Allerdings ist bei den Suchmaschinen zum einen die richtige 
Wahl der Suchworter ausschlaggebend fur ein gutes Sucher- 
gebnis. Zum zweiten wird der Zusammenhang der Dokumente un- 
tereinander weder beriicksichtigt noch dargestellt. 

Es tritt aber in der Praxis haufig der Fall ein, daft man 
bereits eine halbwegs passende Hypertext-Seite gefunden 
hat, die jedoch noch nicht. die gewuschte Information ent- 
halt. Man mu8 also die Verweise systematisch vor- und zu- 
riick absuchen und die Hyper text-Sei ten selbst inspizieren, 
urn die gewunschte Information zu finden. 

Hypertext-Seiten stellen in ihrer Basis-Struktur einen Baum 
dar, weil jede Seite als Knoten mit Verweisen zu unterge- 
ordneten Knoten erscheint . Die Ruck- und Querverweise je- 
doch storen diese Struktur empfindlich. Dennoch ist es als 
Navigationshilfe bekannt, einen Strukturbaum der Hypertext- 
Dokumente anzuzeigen, der auch als 'site-map' bezeichnet 
wird. Hierbei wird, ausgehend von einer, meist als 'home 
page' bezeichneten, Wurzel ein Baum aufgebaut, wobei alle 
der Baumstruktur widersprecheden Verweise ganz unterdriickt 
oder nur schwach angezeigt werden. Hierzu sind eine Anzahl 
von meist zweidimensionalen graphischen Darstellungsf ormen 
bekannt. Neuerdings werden auch dreidimensionale Abbildun- 
gen gewahlt, die der Benutzer interaktiv im Raume drehen 



kann, wobei eine entsprechende Projektion auf eine zweidi- 
mensionale Flache angezeigt wird. 

Nachteilig ist dabei , daS diese Darstellung nur mit einem 
kurzen Text, meist dem vergebene Titel, bezeichnet sind. 
Damit ist zwar die Navigation ubersichtlicher , als wenn der 
Benutzer diesen Baum im Gedachtnis aufbaut oder auf Papier 
mitschreibt. Dennoch hat der Benutzer immer noch keine Hil- 
fe, welcher der Knoten vielleicht die hochste Relvanz hat- 
te. Die Benutzung einer Suchmaschine , d.h. eines Index, ist 
zwar moglich, steht und fallt aber mit der passenden Aus- 
wahl der zu suchenden Stichworter. 

Aufgabe der Erfindung ist es daher, eine Einrichtung anzu- 
geben, die, ausgehend von einem bekannte Hypertext - 
Dokument, automatisch andere Dokumente anzeigt, ohne daS 
der Benutzer aus dem Inhalt des Ausgangsdokuments Suchworte 
extrahieren mug, urn damit eine Index- oder Volltextsuche 
anzustoSen. 



Darstellung der Erfindung 

Die Erfindung verwendet die Erkenntnis, daS in vielen Fal- 
len eine Seite ahnlichen Inhalts benotigt wird. Daher 
stellt die Erfindung eine Einrichtung bereit, mit der in 
einer symbolischen Darstellung eines Ausgangsdokuments und 
der damit verkniipften Dokumente zugleich mit dem Symbol der 
Grad der Ahnlichkeit zu dem ausgewahlten Ausgangsdokument 
angezeigt wird. 

Weitere Merkmale und Vorteile der Erfindung ergeben sich 
aus der folgenden Beschreibung, welche in Verbindung mit 
den beigefugten Zeichnungen die Erfindung an Hand eines 
Ausfuhrungsbeispiels erlautert . 
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Kurzbeschreibung der Zeichnungen 
Es zeigen 

Fig. 1 ein von der Einrichtung angezeigtes Bild. 

Beschreibung einer Ausfiihrungsf orm der Erfindunq 

In der bevorzugten Ausfiihrungsf orm besteht die Einrichtung 
aus einem Computer mit einer graphischen Anzeige und den 
bekannten Eingabeeinheiten wie Maus und Tastatur. Die gra- 
phische Anzeige wird bevorzugt mit den Programmpaketen 
X/Windows, JAVA, einem auf -ix endenden Betriebssystem usw. 
betrieben. Die Verwendung der haufig verkiirzt als 'Windows' 
bezeichneten Programme der Firma Microsoft ist gleichfalls 
moglich. 

Auf dieser Anzeige werde ein Dokument angezeigt, welches 
ein Hypertext -Dokument ist, das bevorzugt im HTML-Format 
gespeichert ist. Zu der Anzeige wird ein als Browser be- 
zeichnetes Program verwendet, welches die Formatanweisun- 
gen von HTML zur Darstellung auswertet . Fur die vorliegende 
Erfindung sind dabei die Hypertext -Verweise von besonderer 
Bedeutung, im folgenden kurz als Verweise oder 'links' be- 
20 zeichnet . 

Durch beispielsweise eine JAVA-Anwe.ndung wird dem Benutzer 
zusatzlich zu den ohnehin vom Browser bereitgestellten 
Funktionen eine Zusatzfunktion bereitgestellt , die im fol- 
genden genauer beschrieben wird. Es ist aber auch ohne wei- 
teres moglich, hierzu eine. eigenes Programm in JAVA oder 
einer anderen geeigneten Programmiersprache zu verwenden, 
dem die als URL bezeichnete Adresse des Ausgangsdokuments 
als Parameter mitgegeben wird. 
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Dabei wird dieses Programm zunachst die in dem Ausgangsdo- 
kument enthaltenen Verweise benutzen, urn zu den damit be- 
zeichnenten Dokumeten zu gelangen, bei denen wiederum das 
Vorgehen rekursiv wiederholt wird. Da die Verweisstrukturen 
von Hypertext-Dokumenten nicht unbedingt einen Baum dar- 
stellen, ist eine Beschrankung der Suchtiefe notwendig. 
Diese erfolgt entweder durch die Angabe der Rekursionstie- 
fe, z.B. vier, oder die Anzahl der besuchten Dokumente, 
Oder die verbrauchte Zeit, oder eine Kombination hiervon. 
Auch kann festgelegt werden, daS nur Adressen einer be- 
stiiranten Domane verfolgt werden. 

In Fig. 1 ist eine im wesentliche baumartige Darstellung 
gezeigt, wie sie als Ergebnis eines rekursiven Abstiegs in 
vier Ebenen, das Ausgangsdokument eingeschlossen, nach dem 
is Stand der Technik entstanden sein konnte . Die Dokumente 
sind als Kreise- dargestellt und die Verweise als Pfeile. 
Die Schraffur einiger Kreise ist im Stand der Technik noch 
nicht vorhanden, sondern Teil der Erfindung. Of f ensichtlich 
enthalt Dokument Al zwei Verweise auf die Dokumente Bl und 
B2; Bl Verweise auf CI, C2 , C3 und D4 ; B2 Verweise auf C3 
und C4; CI Verweise auf Dl, D2 und D3 ; C2 Verweise auf D3 , 
D4 und D5; C3 Verweise auf D5 und D6; C4 auf D7 und D8 . 

Da die Dokumente fur die Bestimmung der in ihnen enthalte- 
nen Verweise ohnehin in die Einrichtung geladen werden mus- 
sen, erfolgt fur jedes neu geladene Dokument eine Bearbei- 
tung. Hierbei werden die Worter des Dokuments extrahiert 
und in ihrer Haufigkeit bewertet . DaS dabei nicht signifi- 
kate Worter wie Artikel, Konjuktionen usw. , sogenannte 
Stopworter, ignoriert werden, versteht sich von selbst. 
Stark flektierende Sprachen sollten gegebenenf alls ein Wor- 
terbuch o.a. fur die Bestimmung der Grundformen benutzen 
und dann nur die Grundformen verwenden. 
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Die Bewertung der Haufigkeit ist in erster Naherung einfach 
die Anzahl des Vorkommens in dem Dokument . In einer ver- 
besssterten Variante wird beriicksichtigt , wie der Ort des 
Vorkommmens markiert ist. Beispielsweise konnten Worter im 
Titel bzw. der Stichwortliste mit hoherem Gewicht bewertet 
werden, so daS die Haufigkeit als Bruch erscheint . Ferner 
ist eine Normierung auf die Gesamtzahl mQglich. Damit er- 
gibt sich ein mit der Anzahl der untersuchten Dokumente 
wachsende Matrix, in deren Zeilen die Dokumente und in de- 
ren Spalten die Worter indiziert sind. 

Mittels dieser Matrix kann durch Multiplikation zweier Zei- 
lenvektoren und Summierung der Produkte ein Abstand zweier 
Dokumente bestimmt werden. Dieses AbstandsmaE ist umso gro- 
wer, je ahnlicher sich die beiden Dokumente sind, weil die 
Zahl besonders groS ist, wenn die Dokumente gemeinsame Wor- 
ter haben, die zudem noch in beiden Dokumenten gleich hau- 
fig vorkommen. Die ersten Vorschlage in dieser Richtung 
wurden von H. Luhn in dem Artikel "The automatic creation 
of literature abstracts", IBM Journal of Research and Deve- 
lopment 2, 158-165, 1958, vorgeschlagen . Andere Funktionen, 
die die Matrix verwenden oder aus der Matrix eine quadrat i- 
sche symmetrische Matrix des Abstands der Dokumente unter- 
einander extrahieren, indem paarweise Abstande bestimmt und 
damit die Worter eliminiert werden, sind gleichfalls mog- 
lich. Die Auswahl kann nach pragmatischen Gesichtspunkten 
erfolgen und ist ohne wesentliche Auswirkung auf die Grund- 
funktionalitat der Erfindung, wenn auch davon ein prakti- 
scher Erfolg, bezogen auf ein Fachgebeit, wesentlich abhan- 
gen kann. Im ubrigen entspricht das AbstandsmaS nicht den 
Kriterien eines topolgischen Abstands, da die Dreicksun- 
gleichung nicht erfullt sein muS und der Abstand zu sich 
selbst einen maximalen Wert anstelle von Null liefert. 
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Die Verwendung von Worthauf igkeitsvektoren ist insofern 
vorteilhaft, als die Matrix der gewichteten Worthauf igkei- 
ten dynamisch wahrend des rekursiven Durchsuchens erfolgen 
kann und jedes Dokument nur einmal ubertragen und analy- 
5 siert werden mu£. Dies schlieSt jedoch nicht aus, da£ die 
Einrichtung auch derart betrieben wird, daS ein AbstandsmaS 
jedesmal neu bestimmt wird, indem die betroffenen Dokumente 
aktuell geladen und ausgewertet werden. Auch ist eine Kom- 
bination moglich, bei der die Bestimmung tiber Worthauf ig- 
10 keiten eine Vorauswahl von Dokumenten bestimmt, fur die 
dann paarweise das AbstandsmaS nach anderen Verfahren, die 
den Dokumententext selbst benotigen, genau bestimmt wird. 
^ ' Wie oben angedeutet, konnte dies fur stark flektierende 

o.a. Sprachen gelten, bei denen der Vorgang der Reduktion 
15 auf Wortstamme einer aufwendigen Syntax- und Semantikanaly- 
ste bedarf . 

Bevorzugt wird, nachdem der Suchvorgang abgeschlossen und 
die Matrix erstellt ist, die Verweisstruktur angezeigt. 
Hierfur sind eine Vielzahl von Formen bekannt; beginnend 

20 bei einer Auflistung mit Einriickungen, einer baumahnlichen 
graphischen Darstellung oder aufwendigen 3D/2D Darstellun- 
gen. In alien ublichen Darstellungsf ormen steht eine Baum- 
struktur im Vordergrund, wie sie bei rekursiven Abstieg ka- 
nonisch entsteht. Die nicht der Baumstruktur entsprechenden 

25 Verweise werden dann entweder nicht gezeigt oder als zusat- 
ziche Linien, ggf . in schwacher Form, dargestellt. Als 
3D/2D Darstellung sind verschiedene Formate bekannt, bei 
denen die Struktur zunachst als Graphik in einem dreidimen- 
sionalen Raum aufgebaut und dann auf eine zweidimensionale 

30 Flache projeziert wird, wie sie z.B. als "Fisheye-View" be- 
kannt ist. 
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In Fig. 1 ist eine stark vereinfache solche Darstellung zu 
sehen, bei der Farbe durch Schraffur dargestellt wird. Do- 
kument Al ist das Ausgangsdokument und besonders gekenn- 
zeichnet, hier durch eine doppelte Umrandung. Da es ferner 
der Ausgangspunkt der Ahnlichkeiten ist, hat es dieselbe 
Schraffur wie die beiden dazu ahnlichsten Dokumente D3 und 
C3. Die beiden nachst ahnlichen Dokumente Bl und D2 sind 
gepunktet dargestellt. 

Unabhangig von der Darstellung besteht die Erfindung darin, 
da£ der iiber die Matrix oder sonstwie bestimmte Abstand zu 
dem Ausgangsdokument durch die Symbole in der Strukturdar- 
stellung angezeigt wird. Bevorzugt wird dabei Farbe verwen- 
det, weil diese in den bekannten Darstellungen keine we- 
sentliche Rolle spielt. Beispielsweise konnte Rot fur die 
groSte Ahnlichkeit, Griin fur die nachstnahreren, iiber Gelb 
und Blau bis Schwarz fur relative Unahnlichkeit verwendet 
werden. Graustufen stellen eine andere Art der Farbung da, 
wobei hier bei einer Anzeige mit hellem Hintergrund Weifi 
als wenig signifikant und schwarz als hochst ahnlich bevor- 
zugt verwendet werden. 

Ein GroEe der Symbole ist gleichfalls einer Farbe Equiva- 
lent ; daher steht in den Anspriichen "Farbe" sowohl auch fur 
Graustufen als auch fur andere, skalierbare Darstellungen 
wie dem Durchmesser einer Kreisflache. Lediglich bei den 
3D/2D Darstellungen, bei dennen durch die Projektion eine 
perspektivische Verkleinerung gewiinscht ist, urn die Raumla- 
ge zu visualisieren, ist die Gro£e nicht als "Farbe" an- 
wendbar. Die Verwendung der Form ist zwar auch moglich, 
weil ein Dreieck eine wesentlich siginf ikantere Darstellung 
und deutlich von einem Quadarat unterscheidbar ist, wohin- 
gegen der Unterschied zwischen einem Sechs- und einem Sie- 
beneck kaum sichtbar ist. Dennoch stellt in diesem Beispiel 



die Eckenzahl auch eine "Farbe" dar. Fur Benutzer mit redu- 
zierter Sehfahigkeit bei Buntfarben, die meist durch besse- 
re Unterscheidbarkeit von z.B. Formen kompensiert wird, ist 
diese Moglichkeit wichtig und kann mit der Buntf arbdarstel- 
lung kombiniert werden. 

Sind die Abstande und Farben der Symbole bestimmt, dann ist 
noch ein besondere Hervorhebung der dem Ausgangsdokument am 
nachsten liegenden sinnvoll, beispielsweise durch ein ganz 
oder teilweise blinkendes Symbol, beispielsweise durch ei- 
nen blinkenden gelben Umring, wenn die Symbole Kreisflachen 
sind und eine dunkle Farbe groSere Ahnlichkeit signalisiert 
als eine helle. 

Da die Symbole alle auf der Oberflache erscheinen, kann 
auch ein Symbol, welches bislang nicht das Ausgangsdokument 
ist, durch ein Eingabegerat (Maus) zum neuen Ausgangsdoku- 
ment gemacht werden. In der bevorzugten Ausf iihrungsf orm mit 
bereits in Matrizen akkumulierten Daten kann dann schnell 
die neue Einfarbung des Darstellung bestimmt und angezeigt 
werden. Bevorzugt wird hierbei kein neuer Abstieg von der 
neuen Position aus durchgef iihrt , sondern es werden die be- 
reits akkumulierten Daten verwendet . Bei entsprechenden Be- 
triebsmitteln ist jedoch ein Hinzufugen der noch fehlenden, 
durch den neuen Bezugspunkt in Reichweite geruckten, Doku- 
mente sinnvoll; gegebenenf alls als Hintergrundprozefi, der 
die Anzeige dann auf Anforderung auf den moglicherweise 
veranderten Stand bringt . 

Da in der oben beschrieben Ausfuhrung mit einer Matrixdar- 
stellung von Wortern und Dokumenten die Worter noch als Li- 
ste verfiigbar sind, konnen diese dem Benutzer als weiteres 
Auswahlmittel bereitges tellt werden. Hierzu ist eine alpha- 
betische oder eine Sortierung nach Haufigkeit moglich. 
Wahlt der Benutzer eines odere mehrere Worter, so wird das- 
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jenige Dokument zum Ausgangsdokument , daS hierzu am besten 
pafit. Formal ist dann ein virtuelles Dokument Ausgangsdoku- 
ment, das die maximalen Worthauf igkeiten der ausgewahlten 
Worter umfassen wiirde . 

Im Unterschied zu einer Suche uber einen Index wird dabei 
nicht eine geanderte graphische Anordnung der angezeigten 
Struktur bewirkt, sondern lediglich deren Einfarbung gean- 
dert . 

Eine andere Ausf uhrungsf orm verwendet, bevorzugt zusatzlich 
zur Farbe, noch den Abstand der Symbole im 3D-Raum zueinan- 
der als - Farbmerkmal - . Gerade 3D-Darstellungen lassen noch 
erheblichen Spielraum im relativen Abstand der Symbole zu- 
einander. Da jedoch die verwendeten MaSe, wie oben angege- 
ben, keine Metrik darstellen, ist ein solches Bild nicht 
eindeutig bestimmt. Durch iteratives Vorgehen kann jedoch 
eine Verformung bewirkt werden, die deutlich die relative 
Nahe verschiedener Dokumente anzeigt. Dabei kann in Kauf 
genommen werden, daS die Anzeige nicht stillsteht, sondern 
wegen der gegensatzlichen Einwirkungen die Anzeige sich 
standig leicht verandert. Vielmehr ist dieses "Atmen" ge- 
eignet, die relative Unsicherheit der Einordnung besser an- 
zuzeigen als ein - eingef rorenes - Bild, das eine finale An- 
ordnung vortauscht, die gar nicht stabil ist. 



Pa t en t axispruche 

Einrichtung zum Suchen von bzw. Navigieren in durch 
Verweise verketteten Dokumenten, die auf einer Ausgabe- 
einheit symbolisch dargestellt sind, 
dadurch gekennzeichnet, 
dafi, ausgehend von einem Ausgangsdokument, die Symbole 
der weiteren Dokumente mit einer Markierung versehen 
sind, die den Grad der Ahnlichkeit zu dem Ausgangsdoku- 
ment gemaS einem Ahnlichkeitsmafe anzeigt. 

Einrichtung nach Anspruch 1, wobei ein AhnlichkeitsmaS 
verwendet wird, fur das zunachst aus den Dokumenten ein 
Kennzahlvektor extrahiert wird, dieser in der Einrich- 
tung abgelegt wird und sodann das MaS fur die Anlich- 
keit zweier Dokumente ohne Riickgriff auf das jeweilige 
Dokument durch Operationen auf den Kennzahlvektoren be- 
st immt wird. 

Einrichtung nach Anspruch 2, wobei in einem Vorberei- 
tungsschritt , ausgehend von dem ersten Ausgangsdoku- 
ment, den Verweisen bis zu einer vorgegeben Tiefe nach- 
gegangen wird und von den besuchten Dokumenten der 
Kennzahlvektor extrahiert und abgelegt wird. 

Einrichtung nach Anspruch 2 oder 3, wobei das Ahnlich- 
keit smaS durch eine gewichtete Funktion liber den Hau- 
figkeiten gemeinsamer Worter der zu vergleichenden Do- 
kumente bestimmt wird. 

Einrichtung nach einem der Anspruche 1 bis 4, wobei der 
Grad der Anlichkeit durch die Gestaltung der Symbole 
angezeigt wird. 

Einrichtung nach Anspurch 5, wobei als Mittel zur Ge- 
staltung der Symbole Farbe verwendet wird. 
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Einrichtung nach Anspruch 5 oder 6, wobei alternativ 
Oder zusaztlich zu der Gestaltung der Symbole selbst 
deren Anordnung zueinder so modif iziert wird, dag der 
Abstand zuiti Symbol des Ausgangsdokuments entsprechend 
der Abstandsmetrik bei groSer Ahnlichkeit relativ ge- 
ring wird. 

Einrichtung nach einem der vorhergehenden Anspriiche, 
wobei ein Eingabegerat vorgesehen ist, mit dem eine die 
Einrichtung benutzende Person ein Symbol auswahlen 
kann, welches dadurch das Ausgangsdokument bestimmt. 
Einrichtung nach Anspruch 8 in Kombination mit einem 
der Anspriiche 4 bis 7, wobei eine Eingabevorrichtung 
vorgesehen ist, mittels derer eine die Einrichtung be- 
nutzende Person ein oder mehrere Worter auswahlen kann, 
womit das Dokument mit der groSten gewichteteten 
Worthauf igkeit dieser Worter zum Ausgangsdokument wird. 



Zusammenf assung 

Einrichtung zum Suchen von bzw. Navigieren in durch Verwei- 
se verketteten Dokumenten, die auf einer Ausgabeeinhei t 
symbolisch dargestellt sind, wobei , ausgehend von einem 
Ausgangsdokument, die Symbol e der weiteren Dokumente mit 
einer Markierung versehen sind, die den Grad der Ahnlich- 
keit zu dem Ausgangsdokument gemafc einera AhnlichkeitsmaS 
anzeigt . 



Fig. 1 
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